Curso formativo para el PDI. Universidad de Castilla-La Mancha
Unidad 2 La importancia del contexto La importancia del contexto
Objetivos de aprendizaje
Resultados esperados
Conceptos clave
¿Qué hemos aprendido?
Subrayar la importancia del contexto.
Conectar los datos con la historia.
Mostrar cómo el contexto influye en la visualización.
Evitar manipulaciones no intencionadas.
Tipos de análisis. Fuente: Knaflic (2019)**
El análisis exploratorio: es lo que se hace para comprender los datos y averiguar qué puede ser digno de mención o interesante para otros. El análisis exploratorio es como buscar perlas en las ostras.
El análisis explicativo: es lo que se hace para explicar los datos a otros. El análisis explicativo es como hacer joyas con las perlas.
¿Dónde empezamos?. Fuente: Knaflic (2019)
Communication mechanism continuum. Fuente: Knaflic (2019)
Historia en 3‐minutos:: Si sólo dispusieras de tres minutos para decirle a su público lo que necesita saber, ¿qué le dirías?
La gran idea: la Gran Idea reduce el “qué” aún más: a una sola frase.
Storyboard o representación visual de la historias: una serie de imágenes que representan las escenas clave de la historia.
tidyverse
Conocer qué es el tidyverse y los datos tidy
Descubrir las acciones (verbos) de {dplyr}.
Aprender a visualizar datos con {ggplot2}.
Imagen tomada de: iStock
Imagen adaptada de: iStock
Cada variable forma una columna.
Cada observación forma una fila.
Cada tipo de unidad de observación forma una tabla.
Fuente: Wickham and Grolemund (2016)
Es una colección de paquetes coehrentes, que comparten gramática, filosofía y estructura y están diseñados para realizar juntos como una canalización completa (pipeline). Todos se basan en la idea de tidy data propuesta por Hadley Wickham Hadley (2014) y pueden instalarse con un único comando en R:
Los paquetes que forman parte del tidyverse son:
{readr}, para importación de datos.
{dplyr}, para manipulación de datos.
{tidyr}, para ordenar datos.
{ggplot2}, para visualización de datos.
{purrr}, para programación.
{tibble}, para tibbles, un nuevo formato de data frames.
{stringr}, para caracteres.
{forcats}, para factores.
En programación, un pipe (tubo) es una técnica que permite pasar información de un proceso a otro.
Fuente: https://static-bcrf.biochem.wisc.edu/courses/Tabular-data-analysis-with-R-and-Tidyverse/book/8-tidyverseanotherRuniverse.html
Imagina la siguiente secuencia:
Expresado como un cojunto de funciones anidadas y pseudo-código R podría ser así:
Utilizando pipes la lectura se hace más fácil y natural:
dplyr
filas:
filter() filtra casos en función de sus valores.
arrange() cambia el orden de las filas.
columnas:
select() elige variables en función de sus nombres.
transformación:
summarise() reduce múltiples valores a un solo resumen.
mutate() agrega nuevas variables que son funciones de variables existentes.
agrupación:
group_by() agrupa datos por una o más variables.Fuente: https://posit.co/resources/cheatsheets/
Note
Nosotros vamos a contar historias con los datos usando el software estadístico R por lo que es necesario conocer algunos paquetes y funciones para poder manipular y representar los datos.
¿Qué hay en un conjunto de datos?
starwars
Fuente: https://datasciencebox.org
La importancia del contexto en la comunicación.
Nociones básicas para manipular datos en R.
Recuerda que los ordenadores actualmente no son inteligentes.
Filosofía: copy, paste, and tweak.
La mejor forma de aprender código es haciéndolo.
La práctica es la clave.